3.1.1. Tập dữ liệu thực nghiệm.
Để thực nghiệm tôi sử dụng một trong các bộ dữ liệu được đăng tải trên trang Movielens của nhóm nghiêm cứu GroupLens. GroupLens là một nhóm nghiên cứu tại Khoa Khoa học Máy tính và Kỹ thuật của Đại học Minnesota, chuyên về hệ thống khuyến nghị, cộng đồng trực tuyến, công nghệ di động, thư viện kỹ thuật số, và các hệ thống thông tin địa lý địa phương. Các thành viên của dự án nghiên cứu GroupLens được tham gia vào nhiều dự án nghiên cứu liên quan đến các lĩnh vực lọc thông tin, lọc cộng tác, và hệ thống khuyến nghị. Dự án được dẫn dắt bởi giáo sư John Riedl và Joseph Konstan. Dự án bắt đầu để khám phá lọc cộng tác tự động vào năm 1992, nhưng nổi tiếng nhất trên toàn thế giới cho thử nghiệm là một hệ thống lọc cộng tác tự động cho Usenet News năm 1996. Kể từ đó dự án đã mở rộng phạm vi nghiên cứu tổng thể các giải pháp lọc thông tin, tích hợp trong phương pháp dựa trên nội dung cũng như cải tiến công nghệ lọc cộng tác hiện tại.
Movielens là một hệ thống khuyến phổ biến, là một website gợi ý phim cho người dùng xem, dựa trên sở thích phim của họ và sử dụng phương pháp lọc cộng tác, được nhóm GroupLens tạo ra vào năm 1997.
Bộ dữ liệu tôi sử dụng của Movielens chứa các dữ liệu đánh giá rõ ràng cho các phim, có đặc điểm sau:
Với 100000 đánh giá được thực hiện bởi 1000 người dùng trên 1700 bộ phim. Các phim nhận giá trị đánh giá trong khoảng từ 1 đến 5.
Mỗi người sử dụng đã đánh giá ít nhất là 20 phim.
Thông tin cá nhân đơn giản cho người sử dụng (tuổi, giới tính, nghề nghiệp, zip code_mã bưu chính)
Các dữ liệu được thu thập thông qua các trang web MovieLens (Movielens.umn.edu) trong khoảng thời gian bảy tháng từ ngày 19 tháng 9 năm 1997 và được thông qua ngày 22 tháng 04 năm 1998. Trong bộ dữ liệu này, người sử dụng có ít hơn 20 xếp hạng hoặc không có thông tin cá nhân hoàn chỉnh sẽ bị loại bỏ khỏi bộ dữ liệu.
3.1.2. Thông tin chi tiết về định dạng của bộ dữ liệu của Movielens[15]
ml-data.tar.gz - tập tin nén tar. Để xây dựng lại các tập tin dữ liệu u: gunzip ml-data.tar.gz
tar xvf ml-data.tar mku.sh
u.data - Bộ u dữ liệu đầy đủ, 100000 xếp hạng của 943 người dùng trên 1682 mặt hàng Mỗi người dùng có đánh giá ít nhất là 20 phim. Người sử dụng và các mặt hàng được đánh số liên tục từ 1 và dữ liệu được sắp xếp ngẫu nhiên. Cấu trúc của 1 nhãn riêng biệt: user id | item id | rating | timestamp Các dấu thời gian là unix giây kể từ 01/01/1970 theo giờ UTC u.info - Số người users, items, and rating trong các u tập dữ liệu u.item - Thông tin về các items (movies, một nhãn có dạng: movie id | movie title | release date | video release date | IMDb URL | unknown | Action | Adventure | Animation | Children's | Comedy | Crime | Documentary | Drama | Fantasy |
Film-Noir | Horror | Musical | Mystery | Romance | Sci-Fi | Thriller | War | Western | movie id là được sử dụng trong tập dữ liệu u.data. u.genre - Một danh sách các thể loại phim u.user - thông tin cá nhân của user; một nhãn có dạng: user id | age | gender | occupation | zip code user id là những người sử dụng trong tập dữ liệu u.data. u.occupation - Danh sách các ngành nghề.
u1.base 943 users, 1650 items, 80.000 ratings - Bộ dữ liệu u.data được tách thành các bộ ui.base và ui.test (với i=1..5) để làm các bộ dữ liệu huấn luyện và kiểm tra bởi mku.sh. Mỗi u1, ...,u5 có bộ kiểm tra riêng biệt. u1.test 459 users, 1410 items, 20.000 ratings u2.base 943 users, 1648 items, 80.000 ratings u2.test 653 users, 1420 items, 80.000 ratings u3.base 943 users, 1650 items, 80.000 ratings u3.test 869 users, 1423 items, 80.000 ratings u4.base 943 users, 1660 items, 80.000 ratings u4.test 923 users, 1394 items, 80.000 ratings u5.base 943 users, 1650 items, 80.000 ratings u5.test 927 users, 1407 items, 80.000 ratings
Bảng 3.1: Định dạng các bộ dữ liệu huấn luyện và kiểm tra của Movielens mku.sh - Một kịch bản để tạo ra tất cả các dữ liệu từ bộ .data